Khiops: une méthode statistique de discrétisation
نویسنده
چکیده
RÉSUMÉ. Dans le domaine de l’apprentissage supervisé, certains modèles sont adaptés uniquement aux données qualitatives. Ces modèles procèdent alors à une étape de discrétisation des attributs numériques. De nombreuses méthodes de discrétisation ont été proposées dans la bibliographie, qui se basent sur des critères statistiques, informationnels ou encore d’autres critères dédiés. Nous proposons ici une nouvelle méthode de discrétisation, Khiops, basée sur la statistique du Khi2. Contrairement aux méthodes de discrétisation apparentées ChiMerge et ChiSplit, cette méthode optimise le critère du Khi2 globalement sur l’ensemble du domaine de discrétisation et ne nécessite aucun paramétrage de critère d’arrêt de la discrétisation. Une étude théorique complétée par des expérimentations montre la robustesse de la méthode et la qualité prédictive des discrétisations obtenues.
منابع مشابه
A robust method for partitioning the values of categorical attributes
Résumé. Dans le domaine de l’apprentissage supervisé, les méthodes de groupage des modalités d’un attribut symbolique permettent de construire un nouvel attribut synthétique conservant au maximum la valeur informationnelle de l’attribut initial et diminuant le nombre de modalités. Nous proposons ici une généralisation de l’algorithme de discrétisation Khiops pour le problème du groupage des mod...
متن کاملKhiops: outil d'apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables
Résumé. Khiops est un outil d’apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables. L’importance prédictive des variables est évaluée au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel. Dans le cas d’une base multi-tables, par exemple des clients avec leurs achats, une table d’analyse individus ×...
متن کاملUne méthode implicative pour l'analyse de données d'expression de gènes
Résumé. Nous présentons une méthode d'extraction d'associations basée sur l'analyse statistique implicative et la notion de rang. Nous avons adapté le concept d'intensité d'implication à des classements pour découvrir des relations partielles robustes vis à vis du bruit et des variations d’amplitude. Appliquée aux données de puces à ADN, cette méthode met en évidence des relations entre des for...
متن کاملMaladies contagieuses non parasitaires-sur une nouvelle méthode de vaccination contre la pasteurellose des bovins et des buffles
متن کامل
Recherche d'image par le contenu : requête partielle ou globale, apprentissage en ligne
Résumé. Nous présentons dans cet article deux méthodes d’élaboration des signatures, une méthode globale à l’aide d’histogrammes et une méthode de description des régions et de leur disposition dans l’image. Nous exposons ensuite une méthode dédiée à la requête partielle qui est basée sur la mise en correspondance de graphes de régions et une méthode interactive basée sur l’apprentissage statis...
متن کامل